book_index の infobox についてどのような検討を行なったのかという記録
book_index の infobox 更新記録
思い起こせばもう7年くらい使っているわけで、このプロジェクトには相当数の書籍に関するページがあるけれど、
その時代、時代で使い方のスタイルが違うので貼られているフォーマットというか作法が違いすぎる
話の流れでページは作られるので、今日と明日でも違ってたりする
いまから改めて全てのページの形式を整えるなんてのは、めちゃくちゃ途方に暮れる
https://gyazo.com/61294cbc0c539df55e84082866977af1
https://gyazo.com/a2ef254ff55aa7872074d9a0524542bf
infobox は LLM が上手いことやってくれるので、すでに好き放題に作られている書籍のページに、このタグ book_index を貼るだけで、そのページにこれらの項目が載っている "infobox" が表示される
https://gyazo.com/41070226738b1a5242e188037e6a7447
https://gyazo.com/93985e8382042137c556198e568723d4
そういう正規化が成されるというのはすごく良い
汚い amazon の url を正規化する
つまり、amazon の url をそのまま貼れる
いつも、手癖で( bookmarklet を使って)、正規化していた
それを端折ってもイイ。気にせずなんでも貼れば良い
table:hoge
asin ページに記載のある amazon.co.jp の url から抽出して
a url とした理由は amazon url としたらそのまま生の amazon の url を抽出してしまったから
https://gyazo.com/9926df51619fdb10cf0c752ef1c71a67
true か false で回答
https://gyazo.com/3bb4425fd97204d7110c2ed031562764
このプロジェクトの中にある本を探す = Amazon の URL が貼られているページを探す
100件しか表示されない
メチャ不便。でも誰も文句言ってない。そういう使い方しないのか
結局300ページ以上あった
infobox の定義のためには普通のキーワードと別に、それ用のタグを設定するべきだと思う
以前は book というタグを貼っていた
最近は貼っていなかった
なので、手間を減らすためにそれを book_index として再利用してみた
通常のページ(2 hop link がカード形式で表示されるページ)と infobox のページは、その性質が違いすぎる
だから別にするべきだと思う
LLM のサポートによる「お手軽さ」について
とりあえず Amazon の URL をタイトルつきで貼っておくと、作者、訳者、 asin または isbn は抽出できる
それから出版元の URL を貼っておくと、出版社は抽出できる
LLM に上手いこと処理してもらって NDC に則った分類を表示してもらいたい NDC の区分くらいは自動的に表示して欲しかったけどちょっと無理だったので、国会図書館サーチの検索ページのリンクを合成した
NDC を自分で貼るのは面倒くさい
code:bookmarklet.js
window.open(
title
)}&f-ht=ndl&f-ht=library&f-mt=dtbook`
Amazon の URL に移動して上のブックマークレットを使えば国立国会図書館サーチのページに飛ぶのでそこの一覧から NDC を含めた書籍情報が取れる asin から国立国会図書館サーチの検索ページへの url を生成するのは出来そうなので、ひとまずそれを infobox へ置くかー
おいた
table:fuga
基本的なコトだったんだけど asin は本(紙)とキンドル(データ)で異なってて、キンドルの URL を貼ったページだと無効。残念
気が向いたら、本(紙)の方の URL も貼るようにする
よく考えたら当たり前なのかもしれないけど、洋書でも isbn が設定されていたりするっぽい
ISBN(アイエスビーエヌ)は、International Standard Book Number の略称(頭字語)。図書(書籍)および資料の識別用に設けられた国際規格コード(番号システム)の一種。アラビア数字で表される。日本における漢訳名は「国際標準図書番号」。
開発されたのは1966年のイングランド、W・H・スミス社のプロジェクトによる。
ペーパーバックとハードカバーで別々の isbn が設定されているという問題
国会図書館サーチの書籍管理番号が ISBN で無い理由は、だぶん ISBN が付与されていない文書も管理しているから
書籍でも出版時期が古い書籍は ISBN がない
そういう書籍は国立国会図書館デジタルコレクションにアーカイブされているものもある